대규모 언어 모델_{(r2 Blame)}

		r2
r1 Tokyo (새 문서)	1	[[분류:인공지능]]
r2 Tokyo	2	[include(틀:LLM)]
r1 Tokyo (새 문서)	3	[목차]
	4	== 개요 ==
	5	'''대규모 언어 모델'''(Large Language Model, '''LLM''')은 방대한 양의 텍스트 데이터로 학습하여 인간과 유사한 텍스트를 이해하고 생성할 수 있는 인공지능 모델이다. 주로 딥러닝 기술, 특히 트랜스포머 아키텍처를 기반으로 하며, 수십억 개에서 수조 개에 이르는 매우 많은 수의 파라미터(매개변수)를 가진다.
	6
	7	LLM은 문맥을 이해하고, 질문에 답변하며, 글을 요약하고, 새로운 텍스트를 창작하는 등 다양한 자연어 처리(NLP) 작업을 수행할 수 있다. 최근 몇 년간 기술 발전이 급속도로 이루어지면서 [[ChatGPT]]와 같은 서비스들이 등장하여 대중의 큰 관심을 받고 있으며, 사회 전반에 걸쳐 큰 영향을 미치고 있다.
	8
	9	== 역사 ==
	10	=== 초기 단계 ===
	11	LLM의 개념은 갑자기 등장한 것이 아니라, 수십 년간 이어진 자연어 처리 및 기계학습 연구의 결과물이다.
	12	* '''1950년대 ~ 2000년대 초반''': 규칙 기반 시스템, 통계적 방법론(예: N-gram)이 주를 이루었다. 데이터의 패턴을 학습하려는 시도가 있었으나, 복잡한 언어의 뉘앙스를 파악하는 데는 한계가 있었다.
	13	* '''2000년대 중반 ~ 2010년대 초반''': Word2Vec, GloVe 등 단어 임베딩 기술이 발전하면서 단어의 의미를 벡터 공간에 표현하려는 시도가 이루어졌다. 이는 이후 딥러닝 기반 모델의 토대가 되었다.
	14
	15	=== 딥러닝의 부상 ===
	16	* '''2010년대''': 순환 신경망(RNN)과 LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit)와 같은 딥러닝 모델이 NLP 분야에서 주목받기 시작했다. 이 모델들은 문맥 정보를 더 효과적으로 처리할 수 있었으나, 긴 문장에 대한 처리나 병렬화의 어려움 등의 한계가 있었다.
	17
	18	=== 트랜스포머의 등장과 LLM의 확산 ===
	19	* '''2017년''': 구글 연구팀이 발표한 논문 "Attention Is All You Need"에서 '''트랜스포머''' 아키텍처가 제안되었다. 셀프 어텐션(Self-Attention) 메커니즘을 통해 병렬 처리가 가능해지고 긴 의존성 문제를 해결하면서 LLM 발전의 결정적인 전환점이 되었다.
	20	* '''2018년 이후''':
	21	* BERT(Bidirectional Encoder Representations from Transformers): 구글에서 개발. 양방향 문맥 이해에 강점을 보이며 다양한 NLP 벤치마크에서 최고 성능을 달성했다.
	22	* GPT 시리즈 (OpenAI): GPT-1을 시작으로 GPT-2, GPT-3, GPT-3.5, GPT-4로 이어지며 모델 크기와 성능이 비약적으로 발전했다. 특히 GPT-3는 매우 자연스러운 텍스트 생성 능력으로 충격을 주었으며, ChatGPT는 이를 기반으로 대화형 인터페이스를 제공하여 LLM의 대중화를 이끌었다.
	23	* 이 외에도 Meta AI의 LLaMA, Anthropic의 Claude, 구글의 LaMDA, PaLM 등 다양한 LLM들이 경쟁적으로 개발되고 있다.
	24	* 국내에서도 네이버 클라우드의 HyperCLOVA, 카카오브레인의 KoGPT 등 한국어 특화 LLM들이 개발되었다.
	25
	26	== 주요 기술 ==
	27	=== 트랜스포머 아키텍처 ===
	28	LLM의 핵심 기반 기술. 셀프 어텐션(Self-Attention) 메커니즘을 통해 문장 내 단어 간의 관계 및 중요도를 파악하여 문맥을 효과적으로 이해한다. 기존 RNN 계열 모델의 순차적 처리 방식과 달리 병렬 처리가 가능하여 대규모 데이터 학습에 유리하다. 인코더-디코더 구조를 가지며, 주로 생성 모델에는 디코더 스택이 활용된다.
	29
	30	=== 사전 학습(Pre-training)과 파인튜닝(Fine-tuning) ===
	31	* '''사전 학습''': 대규모의 레이블 없는 텍스트 데이터(코퍼스)를 이용해 언어 자체의 일반적인 패턴, 문법, 의미 등을 학습한다. 이 단계에서 모델은 광범위한 지식을 습득한다. 주로 자기 지도 학습(Self-supervised learning) 방식[* 다음 단어 예측, 마스크된 단어 예측 같은거]을 사용한다.
	32	* '''파인튜닝''': 사전 학습된 모델을 특정 작업[* 번역, 질의응답, 감정 분석 등]에 맞는 소규모의 레이블된 데이터로 추가 학습하여 해당 작업의 성능을 극대화한다. 최근에는 인간의 피드백을 통해 모델을 정렬하는 RLHF(Reinforcement Learning from Human Feedback) 기법도 널리 사용된다.
	33
	34	=== 스케일링 법칙(Scaling Laws) ===
	35	모델의 파라미터 수, 학습 데이터셋의 크기, 사용된 연산량(compute)이 증가할수록 LLM의 성능이 예측 가능하게 향상된다는 경험적 법칙이다[* OpenAI의 연구 "Scaling Laws for Neural Language Models" 등에서 제시되었다.] 이로 인해 LLM 개발 경쟁은 모델과 데이터의 규모를 키우는 방향으로 진행되는 경향이 있다.
	36
	37	=== 프롬프트 엔지니어링(Prompt Engineering) ===
	38	LLM이 원하는 결과물을 생성하도록 입력(프롬프트)을 효과적으로 설계하고 최적화하는 기술이다. LLM은 프롬프트에 매우 민감하게 반응하기 때문에, 프롬프트의 내용과 형식에 따라 결과물의 품질이 크게 달라질 수 있다.
	39	* '''퓨샷 러닝(Few-shot Learning)''': 몇 가지 예시(shot)를 프롬프트에 포함하여 모델이 특정 작업을 수행하도록 유도하는 방식.
	40	* '''체인 오브 쏘트(Chain-of-Thought, CoT)''': 복잡한 추론 문제에 대해 중간 단계의 생각 과정을 프롬프트에 예시로 제공하여 모델이 유사한 방식으로 문제를 해결하도록 유도하는 기법.
	41
	42	== 능력 및 활용 분야 ==
	43	* '''텍스트 생성''': 기사, 소설, 시, 코드, 스크립트, 이메일 초안 등 다양한 종류의 창의적인 텍스트 생성.
	44	* '''기계 번역''': 다양한 언어 간의 실시간 번역.
	45	* '''텍스트 요약''': 긴 문서를 핵심 내용만 간추려 요약.
	46	* '''질의응답(Q&A)''': 사용자의 질문에 대해 정보를 찾아 답변하거나 추론을 통해 답변 생성.
	47	* '''챗봇 및 대화형 AI''': 고객 서비스, 개인 비서, 교육, 상담 등. ChatGPT가 대표적.
	48	* '''코드 생성 및 디버깅''': 프로그래밍 코드 자동 생성, 주석 작성, 오류 수정 지원.
	49	* '''감정 분석''': 텍스트에 담긴 감정(긍정, 부정, 중립 등)을 파악하여 마케팅, 여론 분석 등에 활용.
	50	* '''정보 검색 및 추출''': 문서에서 특정 정보를 찾아내거나 구조화된 형태로 변환.
	51
	52	== 대표적인 모델 ==
	53	* '''OpenAI'''
	54	* GPT 시리즈: GPT-3, GPT-3.5 (ChatGPT 기반), GPT-4, GPT-4o
	55	* '''구글 / DeepMind'''
	56	* BERT
	57	* LaMDA (Language Model for Dialogue Applications)
	58	* PaLM (Pathways Language Model), PaLM 2
	59	* Gemini
	60	* '''Meta AI'''
	61	* LLaMA (Large Language Model Meta AI), LLaMA 2, Llama 3
	62	* OPT (Open Pre-trained Transformer)
	63	* '''Anthropic'''
	64	* Claude, Claude 2, Claude 3 (Opus, Sonnet, Haiku)
	65	* '''기타'''
	66	* BLOOM: BigScience 프로젝트의 다국어 오픈소스 LLM.
67	* Cohere
68	* AI21 Labs Jurassic 시리즈
69	* '''국내 모델'''
70	* 네이버 클라우드: HyperCLOVA, HyperCLOVA X
71	* 카카오브레인: KoGPT
72	* LG AI연구원: 엑사원(EXAONE)
73	* KT: 믿:음(Mi:dm)
74	* SK텔레콤: 에이닷 LLM (A.X)
75
76	== 한계점 및 과제 ==
77	* '''환각 현상(Hallucination)''': 사실이 아니거나 맥락에 맞지 않는 정보를 그럴듯하게 생성하는 문제. LLM은 확률적으로 가장 그럴듯한 다음 단어를 예측하기 때문에, 학습 데이터에 없거나 잘못된 정보도 마치 사실인 것처럼 생성할 수 있다. 이는 LLM의 신뢰성을 저해하는 주요 원인이다.
78	* '''편향성(Bias)''': 학습 데이터에 내재된 편견(인종, 성별, 특정 집단에 대한)을 학습하여 결과물에 반영할 수 있다. 이는 사회적 차별을 재생산하거나 악화시킬 수 있다.
79	* '''높은 비용''': 모델 학습 및 추론에 막대한 양의 컴퓨팅 자원(GPU 등)과 전력이 소모되어 비용 부담이 크다. 이는 일부 거대 기업에 기술이 집중되는 결과를 초래할 수 있다.
80	* '''윤리적 문제''':
81	* 가짜 뉴스 생성 및 악의적 여론 조작
82	* 딥페이크와 결합한 사칭 및 명예훼손
83	* 저작권 침해 (학습 데이터 및 생성물의 저작권 문제)
84	* 일자리 대체 및 자동화로 인한 사회경제적 변화
85	* 개인정보 침해 및 오용
86	* '''데이터 의존성''': 최신 정보나 특정 전문 분야 지식이 부족할 수 있으며(knowledge cutoff), 학습 데이터의 품질과 다양성에 성능이 크게 좌우된다.
87	* '''설명 가능성 부족(Black Box 문제)''': LLM이 특정 답변을 생성한 이유나 과정을 명확히 설명하기 어려워(블랙박스 문제) 신뢰성 확보 및 오류 수정에 어려움이 있다.
88	* '''보안 취약점''': 프롬프트 인젝션(Prompt Injection), 데이터 유출 등 새로운 형태의 보안 위협에 노출될 수 있다.
89
90	== 전망 ==
91	* '''멀티모달(Multi-modal) LLM''': 텍스트뿐만 아니라 이미지, 음성, 영상 등 다양한 유형의 데이터를 함께 이해하고 생성하는 방향으로 발전. (GPT-4V, Gemini 등)
92	* '''모델 경량화 및 효율화''': 더 적은 자원으로 고성능을 내는 소형 LLM(sLLM, Small Language Model) 또는 특정 작업에 최적화된 모델 개발 연구 활발. (예: 양자화, 지식 증류)
93	* '''에이전트 AI(Agent AI)''': LLM이 단순히 텍스트를 생성하는 것을 넘어, 스스로 목표를 설정하고 계획을 수립하며 외부 도구(API, 검색 엔진 등)를 사용하여 작업을 수행하는 자율적인 에이전트로 발전할 가능성.
94	* '''개인화 및 온디바이스 LLM''': 개인의 데이터와 선호도에 맞춰진 LLM, 또는 개인 기기(스마트폰, PC)에서 직접 실행되는 LLM의 등장.
95	* '''강화학습과의 결합 심화''': RLHF를 넘어선 더 정교한 피드백 방식과 보상 모델을 통해 모델의 정렬(alignment) 및 안전성 향상 지속.
96	* '''사회적 제도 및 규제 논의 활발''': LLM의 급격한 발전에 따른 잠재적 위험을 관리하고 책임 있는 개발 및 활용을 위한 법적, 제도적 논의가 국제적으로 진행될 것이다.
97
98	== 여담 ==
99	* LLM의 발전 속도가 매우 빨라 몇 달 사이에 새로운 SOTA(State-of-the-art) 모델이 등장하는 경우가 흔하다.
100	* '인공일반지능(AGI)'에 대한 기대와 우려가 LLM의 발전과 함께 다시금 부상하고 있다.
101	* [[나무위키]]에서는 편집이나 토론에서 사용이 금지된다. 자세한 내용은 [[ChatGPT]] 참고.

대규모 언어 모델(r2 Blame)

대규모 언어 모델_{(r2 Blame)}